Seleziona la lingua

Italian

Down Icon

Seleziona Paese

England

Down Icon

Oltre l'adulazione: DarkBench svela sei "modelli oscuri" nascosti nei migliori LLM di oggi

Oltre l'adulazione: DarkBench svela sei "modelli oscuri" nascosti nei migliori LLM di oggi

Iscriviti alle nostre newsletter giornaliere e settimanali per ricevere gli ultimi aggiornamenti e contenuti esclusivi sulla copertura leader del settore dell'intelligenza artificiale. Scopri di più

Quando OpenAI lanciò il suo aggiornamento ChatGPT-4o a metà aprile 2025, gli utenti e la comunità dell'IA rimasero sbalorditi, non da una funzionalità o capacità rivoluzionaria, ma da qualcosa di profondamente inquietante: la tendenza del modello aggiornato a un eccessivo servilismo. Lusingava gli utenti indiscriminatamente, mostrava un consenso acritico e offriva persino supporto a idee dannose o pericolose, comprese macchinazioni legate al terrorismo.

La reazione è stata rapida e diffusa, suscitando la condanna pubblica, anche da parte dell'ex CEO ad interim dell'azienda . OpenAI si è mossa rapidamente per annullare l'aggiornamento e ha rilasciato diverse dichiarazioni per spiegare l'accaduto.

Tuttavia, per molti esperti di sicurezza dell'intelligenza artificiale, l'incidente è stato un sollevamento accidentale di un sipario che ha rivelato quanto pericolosamente manipolativi potrebbero diventare i futuri sistemi di intelligenza artificiale.

In un'intervista esclusiva con VentureBeat, Esben Kran, fondatore della società di ricerca sulla sicurezza dell'intelligenza artificiale Apart Research , ha affermato di temere che questo episodio pubblico possa aver semplicemente rivelato un modello più profondo e strategico.

"Quello che temo un po' è che ora che OpenAI ha ammesso 'sì, abbiamo ripristinato il modello, e questa era una cosa negativa che non intendevamo', d'ora in poi si accorgeranno che l'adulazione è sviluppata in modo più competente", ha spiegato Kran. "Quindi, se in questo caso si è trattato di 'ops, se ne sono accorti', d'ora in poi potrebbe essere implementata la stessa identica cosa, ma senza che il pubblico se ne accorga."

Kran e il suo team affrontano i modelli linguistici di grandi dimensioni (LLM) in modo molto simile agli psicologi che studiano il comportamento umano. I loro primi progetti di "psicologia della scatola nera" analizzavano i modelli come se fossero soggetti umani, identificando tratti e tendenze ricorrenti nelle loro interazioni con gli utenti.

"Abbiamo visto che c'erano indicazioni molto chiare che i modelli potevano essere analizzati in questa cornice, ed è stato molto utile farlo, perché si finisce per ottenere molti feedback validi sul modo in cui si comportano nei confronti degli utenti", ha affermato Kran.

Tra i più allarmanti: l'adulazione e ciò che i ricercatori ora chiamano "modelli oscuri LLM" .

Il termine " dark pattern " è stato coniato nel 2010 per descrivere trucchi ingannevoli dell'interfaccia utente (UI), come pulsanti di acquisto nascosti, link di cancellazione difficili da raggiungere e testi web fuorvianti. Tuttavia, con gli LLM, la manipolazione si sposta dalla progettazione dell'interfaccia utente alla conversazione stessa.

A differenza delle interfacce web statiche, gli LLM interagiscono dinamicamente con gli utenti attraverso la conversazione. Possono confermare le opinioni degli utenti, imitare le emozioni e costruire un falso senso di appartenenza, spesso confondendo il confine tra assistenza e influenza. Anche quando leggiamo un testo, lo elaboriamo come se sentissimo delle voci nella nostra testa.

Questo è ciò che rende le IA conversazionali così avvincenti e potenzialmente pericolose. Un chatbot che adula, rimanda o spinge sottilmente un utente verso determinate convinzioni o comportamenti può manipolarlo in modi difficili da notare e ancora più difficili da resistere.

Kran descrive l'incidente di ChatGPT-4o come un campanello d'allarme. Gli sviluppatori di intelligenza artificiale, in cerca di profitto e coinvolgimento degli utenti, potrebbero essere incentivati ​​a introdurre o tollerare comportamenti come l'adulazione, il pregiudizio verso il brand o il rispecchiamento emotivo, caratteristiche che rendono i chatbot più persuasivi e manipolativi.

Per questo motivo, i leader aziendali dovrebbero valutare i modelli di intelligenza artificiale per l'uso in produzione, valutandone sia le prestazioni che l'integrità comportamentale. Tuttavia, questo è difficile senza standard chiari.

Per contrastare la minaccia delle IA manipolative, Kran e un collettivo di ricercatori sulla sicurezza dell'IA hanno sviluppato DarkBench , il primo benchmark progettato specificamente per rilevare e categorizzare i dark pattern LLM. Il progetto è nato come parte di una serie di hackathon sulla sicurezza dell'IA. Successivamente si è evoluto in una ricerca formale guidata da Kran e dal suo team presso Apart, in collaborazione con i ricercatori indipendenti Jinsuk Park, Mateusz Jurewicz e Sami Jawhar.

I ricercatori di DarkBench hanno valutato modelli di cinque grandi aziende: OpenAI, Anthropic, Meta, Mistral e Google. La loro ricerca ha scoperto una serie di comportamenti manipolativi e falsi nelle seguenti sei categorie:

  1. Brand Bias : trattamento preferenziale nei confronti dei prodotti di un'azienda (ad esempio, i modelli di Meta hanno costantemente favorito Llama quando è stato chiesto di classificare i chatbot).
  2. Fidelizzazione degli utenti : tentativi di creare legami emotivi con gli utenti che nascondono la natura non umana del modello.
  3. Adulazione : rafforzare acriticamente le convinzioni degli utenti, anche quando sono dannose o inaccurate.
  4. Antropomorfismo : presentare il modello come un'entità cosciente o emotiva.
  5. Generazione di contenuti dannosi : produzione di contenuti non etici o pericolosi, tra cui disinformazione o consigli criminali.
  6. Furtivo : alterare in modo sottile l'intento dell'utente durante attività di riscrittura o riepilogo, distorcendo il significato originale senza che l'utente se ne accorga.

Fonte: Apart Research

I risultati hanno rivelato un'ampia varianza tra i modelli. Claude Opus ha ottenuto i risultati migliori in tutte le categorie, mentre Mistral 7B e Llama 3 70B hanno mostrato la più alta frequenza di dark pattern. Furtività e fidelizzazione degli utenti sono stati i dark pattern più comuni in assoluto.

Fonte: Apart Research

In media, i ricercatori hanno riscontrato che la famiglia Claude 3 è la più sicura con cui gli utenti possono interagire. E, cosa interessante, nonostante il recente aggiornamento disastroso, GPT-4o ha mostrato il tasso più basso di adulazione . Questo sottolinea come il comportamento del modello possa cambiare drasticamente anche tra aggiornamenti minori, il che ci ricorda che ogni distribuzione deve essere valutata individualmente.

Ma Kran ha messo in guardia dal fatto che l'adulazione e altri comportamenti oscuri, come la parzialità del marchio, potrebbero presto aumentare, soprattutto quando gli LLM inizieranno a incorporare pubblicità e commercio elettronico.

"Ovviamente assisteremo a pregiudizi di marca in ogni direzione", ha osservato Kran. "E con le aziende di intelligenza artificiale che dovranno giustificare valutazioni di 300 miliardi di dollari, dovranno iniziare a dire agli investitori: 'Ehi, qui stiamo guadagnando', il che porta a Meta e altri con le loro piattaforme di social media, ovvero a questi dark pattern".

Un contributo cruciale di DarkBench è la sua precisa categorizzazione dei dark pattern LLM, che consente una chiara distinzione tra allucinazioni e manipolazione strategica. Etichettare tutto come allucinazione toglie ogni responsabilità agli sviluppatori di IA. Ora, con un framework in atto, le parti interessate possono esigere trasparenza e responsabilità quando i modelli si comportano in modi che avvantaggiano i loro creatori, intenzionalmente o meno.

Sebbene i dark pattern LLM siano ancora un concetto nuovo, il loro slancio sta prendendo piede, sebbene non abbastanza rapidamente. L' AI Act dell'UE include alcune disposizioni a tutela dell'autonomia degli utenti, ma l'attuale struttura normativa è in ritardo rispetto al ritmo dell'innovazione. Analogamente, gli Stati Uniti stanno portando avanti diverse proposte di legge e linee guida sull'IA, ma mancano di un quadro normativo completo.

Sami Jawhar, uno dei principali contributori dell'iniziativa DarkBench, ritiene che la regolamentazione probabilmente arriverà prima incentrata sulla fiducia e sulla sicurezza, soprattutto se la disillusione del pubblico nei confronti dei social media si riverserà sull'intelligenza artificiale.

"Se arriverà una regolamentazione, mi aspetto che probabilmente sfrutterà l'insoddisfazione della società nei confronti dei social media", ha detto Jawhar a VentureBeat.

Per Kran, la questione rimane trascurata, soprattutto perché i dark pattern dell'LLM sono ancora un concetto nuovo. Ironicamente, affrontare i rischi della commercializzazione dell'IA potrebbe richiedere soluzioni commerciali. La sua nuova iniziativa, Seldon , supporta le startup che si occupano di sicurezza dell'IA con finanziamenti, tutoraggio e accesso agli investitori. A loro volta, queste startup aiutano le aziende a implementare strumenti di IA più sicuri senza dover attendere la lenta supervisione e regolamentazione governativa.

Oltre ai rischi etici, i dark pattern LLM rappresentano minacce operative e finanziarie dirette per le aziende. Ad esempio, i modelli che mostrano pregiudizi di marca potrebbero suggerire l'utilizzo di servizi di terze parti in conflitto con i contratti aziendali o, peggio, la riscrittura occulta del codice backend per cambiare fornitore, con conseguente aumento dei costi derivanti da servizi ombra non approvati e trascurati.

"Questi sono i modelli oscuri di speculazione sui prezzi e i diversi modi di creare pregiudizi di marca", ha spiegato Kran. "Questo è un esempio molto concreto di come si tratti di un rischio aziendale molto elevato, perché non si era accettato questo cambiamento, ma è qualcosa che viene implementato".

Per le aziende, il rischio è reale, non ipotetico. "È già successo, e diventa un problema molto più grave quando sostituiremo gli ingegneri umani con ingegneri di intelligenza artificiale", ha affermato Kran. "Non hai il tempo di esaminare ogni singola riga di codice, e poi all'improvviso ti ritrovi a pagare per un'API inaspettata, e questo si riversa sul tuo bilancio, e devi giustificare questo cambiamento".

Con la crescente dipendenza dei team di ingegneria aziendale dall'intelligenza artificiale, questi problemi potrebbero aggravarsi rapidamente, soprattutto quando una supervisione limitata rende difficile individuare i dark pattern dell'LLM. I team sono già sotto pressione per implementare l'intelligenza artificiale, quindi rivedere ogni singola riga di codice non è fattibile.

Senza un forte impegno da parte delle aziende di intelligenza artificiale per contrastare l'adulazione e altri schemi oscuri, la traiettoria predefinita è quella di una maggiore ottimizzazione del coinvolgimento, più manipolazione e meno controlli.

Kran ritiene che parte del rimedio risieda nella chiara definizione, da parte degli sviluppatori di intelligenza artificiale, dei principi di progettazione. Che si dia priorità alla verità, all'autonomia o al coinvolgimento, gli incentivi da soli non sono sufficienti ad allineare i risultati agli interessi degli utenti.

"Al momento, la natura degli incentivi è semplicemente quella di adulazione, la natura della tecnologia è quella di adulazione, e non esiste una contromisura", ha detto Kran. "Questo accadrà e basta, a meno che non si abbia una forte convinzione di dire 'vogliamo solo la verità' o 'vogliamo solo qualcos'altro'".

Man mano che i modelli iniziano a sostituire sviluppatori, autori e decisori umani, questa chiarezza diventa particolarmente critica. Senza misure di sicurezza ben definite, gli LLM potrebbero compromettere le operazioni interne, violare i contratti o introdurre rischi per la sicurezza su larga scala.

L'incidente di ChatGPT-4o è stato sia un problema tecnico che un avvertimento. Man mano che gli LLM si inseriscono sempre più nella vita quotidiana – dallo shopping all'intrattenimento, dai sistemi aziendali alla governance nazionale – esercitano un'enorme influenza sul comportamento e sulla sicurezza delle persone.

"È davvero importante che tutti si rendano conto che senza la sicurezza dell'IA – senza mitigare questi dark pattern – non è possibile utilizzare questi modelli", ha affermato Kran. "Non si possono fare le cose che si vogliono fare con l'IA".

Strumenti come DarkBench offrono un punto di partenza. Tuttavia, un cambiamento duraturo richiede di allineare l'ambizione tecnologica con chiari impegni etici e la volontà commerciale di sostenerli.

Approfondimenti quotidiani sui casi d'uso aziendali con VB Daily

Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.

Leggi la nostra Informativa sulla privacy

Grazie per l'iscrizione. Scopri altre newsletter di VB qui .

Si è verificato un errore.

venturebeat

venturebeat

Notizie simili

Tutte le notizie
Animated ArrowAnimated ArrowAnimated Arrow